出口 祥之 / Hiroyuki Deguchi
Biography
I'm Hiroyuki Deguchi, a research associate at Nippon Telegraph and Telephone Corporation (NTT).
E-mail: hiroyuki.deguchi [at] ntt.com
GitHub: https://github.com/de9uch1
Semantic Scholar: https://www.semanticscholar.org/author/Hiroyuki-Deguchi/49100169
Google Scholar: https://scholar.google.com/citations?user=RLb3HKcAAAAJ
OpenReview: https://openreview.net/profile?id=~Hiroyuki_Deguchi1
Education
2021/04--2024/09: Nara Institute of Science and Technology (NAIST) : D.Eng.
2019/04--2021/03: Graduate School of Science and Engineering, Ehime University: M.Eng.
2015/04--2019/03: Faculty of Engineering, Ehime University: B.Eng.
Work experience
2024/09--Present: Communication Science Laboratories, Nippon Telegraph and Telephone Corporation (NTT): Research Associate
2024/05--2024/08: National Institute of Informatics (NII) Large Language Model Center (LLMC): Research Assistant
2024/03--2024/09: Mantra Inc.: Research and development of technology for manga translation
2021/11--2024/09: National Institute of Information and Communications Technology (NICT): Fixed Term Technical Researcher
2021/07--2021/08: Communication Science Laboratories, Nippon Telegraph and Telephone Corporation (NTT): Internship
2019/08--2019/09: National Institute of Information and Communications Technology (NICT): Collaborative Researcher
Scholarship / Grants
2022/04--2024/03 日本学術振興会 (JSPS) 特別研究員 DC2
2021/04--2022/03 NAIST 創発的先端人材育成 フェローシップ
2019/04--2020/03 平成31年度JEES・ソフトバンクAI人材育成奨学金(ソフトバンクAI人材育成スカラーシップ)
Awards
2024/09/06 デモ賞, リクルート賞, NLP若手の会 (YANS) 第19回シンポジウム (2024)
2024/03/22 最優秀賞, 第1回AAMT若手翻訳研究会
2024/03/14 シェルパ・アンド・カンパニー賞, 言語処理学会 第30回年次大会
2023/08/31 奨励賞, NLP若手の会 (YANS) 第18回シンポジウム (2023)
2022/01/14 優秀先端学生賞, 奈良先端科学技術大学院大学 創発的先端人材育成
2020/12/03 優秀研究賞, 情報処理学会 第246回自然言語処理研究会
Publications
Journal Paper
Hiroyuki Deguchi, Taro Watanabe, Yusuke Matsui, Masao Utiyama, Hideki Tanaka, Eiichiro Sumita. ``Subset Retrieval Nearest Neighbor Machine Translation'', 自然言語処理, Vol.31, No.2, pp. 374--406 , 2024年6月. [paper] [code]
出口 祥之, 内山 将夫, 田村 晃裕, 二宮 崇, 隅田 英一郎. ``ニューラル機械翻訳のためのバイリンガルなサブワード分割'', 自然言語処理, Vol.28, No.2, pp.632--650, 2021年6月. [paper] [code]
出口 祥之, 田村 晃裕, 二宮 崇. ``係り受け構造に基づくAttentionの制約を用いたTransformerニューラル機械翻訳'', 自然言語処理, Vol.27, No.3, pp.553--571, 2020年9月. [paper] [code]
International Conference, Workshop
Hiroyuki Deguchi, Yusuke Sakai, Hidetaka Kamigaito, Taro Watanabe, Hideki Tanaka, Masao Utiyama. ``Centroid-Based Efficient Minimum Bayes Risk Decoding'', Findings of the Association for Computational Linguistics: ACL2024 (Findings of ACL2024), pp.11009--11018, Bangkok, Thailand, August 2024. [paper] [code]
Hiroyuki Deguchi, Masaaki Nagata, Taro Watanabe. ``Detector--Corrector: Edit-Based Automatic Post Editing for Human Post Editing'', Proceedings of the 25th Annual Conference of The European Association for Machine Translation (EAMT2024), pp. 191--206, Sheffield, United Kingdom, June 2024. [paper]
Hiroyuki Deguchi, Kenji Imamura, Yuto Nishida, Yusuke Sakai, Justin Vasselli, Taro Watanabe. ``NAIST-NICT WMT’23 General MT Task Submission'', Proceedings of the Eighth Conference on Machine Translation (WMT'23), pp.110--118, Singapore, December 2023. [paper]
Hiroyuki Deguchi, Taro Watanabe, Yusuke Matsui, Masao Utiyama, Hideki Tanaka, Eiichiro Sumita, ``Subset Retrieval Nearest Neighbor Machine Translation'', Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (ACL2023), pp.174--189, Toronto, Canada, July 2023. [paper] [code]
Hiroyuki Deguchi, Kenji Imamura, Masahiro Kaneko, Yuto Nishida, Yusuke Sakai, Justin Vasselli, Huy Hien Vu, Taro Watanabe. ``NAIST-NICT-TIT WMT22 General MT Task Submission'', Proceedings of the Seventh Conference on Machine Translation (WMT'22), pp.244--250, Abu Dhabi, United Arab Emirates (Hybrid), December 2022. [paper]
Hiroyuki Deguchi, Akihiro Tamura, Takashi Ninomiya. ``Synchronous Syntactic Attention for Transformer NMT'', Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing: Student Research Workshop (ACL-IJCNLP SRW 2021), pp.348--355, Bangkok, Thailand (Online), August 2021. [paper]
Hiroyuki Deguchi, Masao Utiyama, Akihiro Tamura, Takashi Ninomiya, Eiichiro Sumita. ``Bilingual Subword Segmentation for Neural Machine Translation'', Proceedings of the 28th International Conference on Computational Linguistics (COLING 2020), pp.4287--4297, Barcelona, Spain (Online), December 2020. [paper] [code]
Hiroyuki Deguchi, Akihiro Tamura, Takashi Ninomiya. ``Dependency-Based Self-Attention for Transformer NMT'', Proceedings of International Conference Recent Advances in Natural Language Processing (RANLP 2019), pp.239--246, Varna, Bulgaria, September 2019. [paper] [code]
Preprint
Hiroyuki Deguchi, Yusuke Sakai, Hidetaka Kamigaito, Taro Watanabe, ``mbrs: A Library for Minimum Bayes Risk Decoding'', arXiv 2408.04167, August 2024. [arxiv] [code]
Hiroyuki Deguchi, Yusuke Sakai, Hidetaka Kamigaito, Taro Watanabe, Hideki Tanaka, Masao Utiyama, ``Centroid-Based Efficient Minimum Bayes Risk Decoding'', arXiv 2402.11197, February 2024. [arxiv] [code]
Hiroyuki Deguchi, Hayate Hirano, Tomoki Hoshino, Yuto Nishida, Justin Vasselli, Taro Watanabe, ``knn-seq: Efficient, Extensible kNN-MT Framework'', arXiv 2310.12352, October 2023. [arxiv] [code]
Domestic Conference
出口 祥之, 鴨田 豪, 松下 祐介, 慶田 開, 和賀 正樹, 横井 祥, ``柔らかいgrep/KWICに向けて:高速単語列マッチングの埋め込み表現による連続化'', NLP若手の会 (YANS) 第19回シンポジウム (2024), 2024年9月. (デモ賞, リクルート賞)
夏見 昂樹, 出口 祥之, 上垣外 英剛, 渡辺 太郎, ``知識蒸留モデルと合意をとる頑健な行列補完を用いた高速な確率的最小ベイズリスク復号法'', NLP若手の会 (YANS) 第19回シンポジウム (2024), 2024年9月.
岩國 巧, 出口 祥之, 上垣外 英剛, 渡辺 太郎, ``機械翻訳の評価指標における信頼度の評価'', NLP若手の会 (YANS) 第19回シンポジウム (2024), 2024年9月.
五藤 巧, 出口 祥之, 上垣外 英剛, 渡辺 太郎, ``k近傍事例を用いたニューラルモデルの予測における定量的な解釈'', 情報処理学会研究報告, 自然言語処理研究会, 2024-NL-261 (15), pp.1--9, 2024年9月. [paper]
出口 祥之, 渡辺 太郎, 松井 勇佑, 内山 将夫, 田中 英輝, 隅田 英一郎, ``サブセット探索を用いた高速なkNNニューラル機械翻訳'', 第1回AAMT若手翻訳研究会, 2024年3月. (最優秀賞) [slide]
出口 祥之, 坂井 優介, 上垣外 英剛, 渡辺 太郎, ``疑似参照訳文ベクトルの重心に基づく高速なニューラル最小ベイズリスク復号'', 言語処理学会 第30回年次大会, 2024年3月. (シェルパ・アンド・カンパニー賞) [paper] [code]
西田 悠人, 森下 睦, 出口 祥之, 上垣外 英剛, 渡辺 太郎, ``kNN言語モデルは低頻度語の予測に役立つか?'', 言語処理学会 第30回年次大会, 2024年3月. (第一著者若手奨励賞) [paper]
出口 祥之, 平野 颯, 星野 智紀, 西田 悠人, Justin Vasselli, 渡辺 太郎, ``knn-seq: 高速・拡張可能なkNN機械翻訳フレームワーク'', NLP若手の会 (YANS) 第18回シンポジウム (2023), 2023年8月. (奨励賞) [code]
林 和樹, 出口 祥之, Xincan Feng, 上垣外 英剛, 林 克彦, 渡辺 太郎, ``kNN-LMによる知識グラフを用いた大規模言語モデルにおける知識の操作'', NLP若手の会 (YANS) 第18回シンポジウム (2023), 2023年8月. (第一著者奨励賞)
出口 祥之, 渡辺 太郎, 松井 勇佑, 内山 将夫, 田中 英輝, 隅田 英一郎, ``近傍文検索を用いたサブセットkNNニューラル機械翻訳'', 言語処理学会 第29回年次大会, pp.283--288, 2023年3月. [paper] [code]
芳賀 あかり, 平尾 努, 帖佐 克己, 本多 右京, 出口 祥之, 渡辺 太郎, ``画像キャプショニングのための制約語の抽出法'', 言語処理学会 第29回年次大会, pp.2206--2210, 2023年3月. [paper]
井手 佑翼, 出口 祥之, 五藤 巧, Armin Sarhangzadeh, 渡辺 太郎. ``後続文脈の考慮が文法誤り訂正性能にもたらす影響の調査'', 情報処理学会研究報告, 自然言語処理研究会, 2022-NL-253, 2022年9月. [paper]
出口 祥之, 田村 晃裕, 二宮 崇. ``同期注意制約を与えた依存構造に基づくTransformer NMT'', 言語処理学会 第27回年次大会, pp.1369--1374, 2021年3月. [paper]
佐々木 拓馬, 田村 晃裕, 出口 祥之, 二宮 崇, 加藤 恒夫. ``逆順デコーダを用いた係り受け構造に基づくTransformerニューラル機械翻訳'', 言語処理学会 第27回年次大会, pp.133--137, 2021年3月. [paper]
出口 祥之, 内山 将夫, 田村 晃裕, 二宮 崇, 隅田 英一郎. ``ニューラル機械翻訳のためのバイリンガルなサブワード分割'', 情報処理学会研究報告, 自然言語処理研究会, 2020-NL-246 (22), pp.1--8, 2020年12月. (優秀研究賞) [paper] [code]
出口 祥之, 田村 晃裕, 二宮 崇. ``同期注意制約を与えたTransformerによるニューラル機械翻訳'', 言語処理学会 第26回年次大会, pp.1459--1462, 2020年3月. [paper]
出口 祥之, 田村 晃裕, 二宮 崇. ``係り受け構造に基づくAttentionの制約を用いたNMT'', 言語処理学会 第25回年次大会, pp.13--16, 2019年3月. [paper] [code]
Others
出口 祥之. ``Subset Retrieval Nearest Neighbor Machine Translation'', 自然言語処理, Vol.30, No.4, pp.1245--1250, 2023年12月. [paper]
二宮 崇, 出口 祥之, 内山 将夫, 田村 晃裕, 隅田 英一郎. ``ニューラル機械翻訳のためのバイリンガルサブワード分割の研究'', Japio YEAR BOOK 2021, pp.276--285, 2021年11月. [paper]
二宮 崇, 表 悠太朗, 出口 祥之, 田村 晃裕. ``機械翻訳のための係り受け構造に基づくトランスフォーマーモデルの研究'', Japio YEAR BOOK 2019, pp.280–287, 2019年11月. [paper]
Software
Framework / Library
mbrs: A library for minimum bayes risk decoding
semsis: A library for billion-scale semantic similarity search
Tools
argparser: Argument parser for shell script. argparser allows Python's argparse.ArgumentParser -like parsing.
Research Code
Transformer NMT w/ Dependency-Based Self-Attention (DBSA): Incorporate head prediction based on a dependency parser into the encoder and decoder self-attentions.
Bilingual Subword Segmentation (BiSW) for NMT: Use the sequence length ratio between a source sentence and a target sentence for subword segmentation.
Contribute to Fairseq
https://github.com/facebookresearch/fairseq/pull/2985 : Add a soft alignment option which returns the probability of the cross-attention weights instead of the argmax positions.